图理论分析已成为建模大脑功能和解剖连接性的标准工具。随着连接组学的出现,主要的图形或感兴趣的网络是结构连接组(源自DTI拖拉术)和功能连接组(源自静止状态fMRI)。但是,大多数已发表的连接组研究都集中在结构或功能连接上,但是在同一数据集中可用的情况下,它们之间的互补信息可以共同利用以提高我们对大脑的理解。为此,我们提出了一个功能约束的结构图变量自动编码器(FCS-GVAE),能够以无监督的方式合并功能和结构连接的信息。这导致了一个关节的低维嵌入,该嵌入建立了一个统一的空间坐标系,用于在不同受试者之间进行比较。我们使用公开可用的OASIS-3阿尔茨海默氏病(AD)数据集评估我们的方法,并表明为最佳编码功能性脑动力学而言,有必要的配方是必要的。此外,所提出的联合嵌入方法比不使用互补连接信息的方法更准确地区分不同的患者子选集。
translated by 谷歌翻译
在本文中,我们考虑了MNL-Bandit问题的上下文变体。更具体地说,我们考虑了一个动态设置优化问题,决策者为消费者提供了一系列产品(各种产品),并在每回合中观察他们的响应。消费者购买产品以最大化其实用性。我们假设一组属性描述了产品,并且产品的平均效用在这些属性的值中是线性的。我们使用广泛使用的多项式logit(MNL)模型对消费者选择行为进行建模,并考虑动态学习模型参数的决策者问题,同时优化累计收入,超过销售范围$ t $。尽管最近这个问题引起了人们的关注,但许多现有方法通常涉及解决棘手的非凸优化问题。他们的理论绩效保证取决于问题依赖性参数,该参数可能非常大。特别是,此问题的现有算法对$ o(\ sqrt {\ kappa d t})$界后后悔,其中$ \ kappa $是问题依赖性常数,可以对属性的数量具有指数依赖性。在本文中,我们提出了一种乐观的算法,并表明遗憾是由$ o(\ sqrt {dt} + \ kappa)$界定的,从而大大提高了现有方法的性能。此外,我们提出了对优化步骤的放松,该步骤允许进行可牵引的决策,同时保留有利的遗憾保证。
translated by 谷歌翻译
The current reinforcement learning algorithm uses forward-generated trajectories to train the agent. The forward-generated trajectories give the agent little guidance, so the agent can explore as much as possible. While the appreciation of reinforcement learning comes from enough exploration, this gives the trade-off of losing sample efficiency. The sampling efficiency is an important factor that decides the performance of the algorithm. Past tasks use reward shaping techniques and changing the structure of the network to increase sample efficiency, however these methods require many steps to implement. In this work, we propose novel reverse curriculum reinforcement learning. Reverse curriculum learning starts training the agent using the backward trajectory of the episode rather than the original forward trajectory. This gives the agent a strong reward signal, so the agent can learn in a more sample-efficient manner. Moreover, our method only requires a minor change in algorithm, which is reversing the order of trajectory before training the agent. Therefore, it can be simply applied to any state-of-art algorithms.
translated by 谷歌翻译
在这项工作中,我们研究了解决强化学习问题的基于政策的方法,其中采用了非政策性采样和线性函数近似进行政策评估,以及包括自然政策梯度(NPG)在内的各种政策更新规则,用于政策更新。为了在致命三合会的存在下解决政策评估子问题,我们提出了一个通用算法的多步型TD学习框架,具有广义的重要性抽样比率,其中包括两个特定的算法:$ \ lambda $ Q Q $ Q Q $ - 跟踪和双面$ Q $ - 跟踪。通用算法是单个时间尺度,具有可证明的有限样本保证,并克服了非政策学习中的高方差问题。至于策略更新,我们仅使用Bellman操作员的收缩属性和单调性属性提供通用分析,以在各种策略更新规则下建立几何融合。重要的是,通过将NPG视为实施政策迭代的近似方法,我们在不引入正则化的情况下建立了NPG的几何融合,并且不使用现有文献中的镜像下降类型的分析类型。将策略更新的几何融合与策略评估的有限样本分析相结合,我们首次建立了整​​体$ \ Mathcal {o}(\ Epsilon^{ - 2})$样本复杂性以找到最佳策略(最多达到函数近似误差)使用基于策略的方法和线性函数近似下的基于策略的方法。
translated by 谷歌翻译
由于众所周知,强化学习算法是数据密集型的,因此从环境中进行采样观测的任务通常在多个代理之间分配。但是,将这些观察结果从代理转移到中心位置可能会非常昂贵,并且还可以损害每个代理人本地行为政策的隐私。在本文中,我们考虑了一个联合加强学习框架,其中多个代理商协作学习了一个全球模型,而无需共享他们的个人数据和政策。每个代理都维护模型的本地副本,并使用本地采样数据对其进行更新。尽管具有n个代理可以启用n次数据的采样,但尚不清楚它是否导致比例收敛的加速。我们提出了联合版本的On-Policy TD,Off-Policy TD和Q学习,并分析其收敛性。对于所有这些算法,据我们所知,我们是第一个考虑马尔可夫噪声和多个局部更新的人,并证明相对于代理的数量是线性收敛的速度。为了获得这些结果,我们表明联邦TD和Q学习是与马尔可夫噪声联合随机近似的一般框架的特殊情况,并且我们利用该框架提供了适用于所有算法的统一收敛分析。
translated by 谷歌翻译
随机近似(SA)和随机梯度下降(SGD)算法是现代机器学习算法的工作马。由于快速收敛行为,它们在实践中优选它们的持续步骤变体。然而,恒定的步骤随机迭代算法不与最佳解决方案渐近地收敛,而是具有静止分布,这通常不能被分析表征。在这项工作中,我们研究了适当缩放的静止分布的渐近行为,在恒定步骤零的限制中。具体而言,我们考虑以下三种设置:(1)SGD算法,具有平滑且强的凸面物镜,(2)涉及Hurwitz矩阵的线性SA算法,和(3)涉及收缩算子的非线性SA算法。当迭代以$ 1 / \ sqrt {\ alpha} $缩放时,其中$ \ alpha $是常量的步骤,我们表明限制缩放静止分布是整体方程的解决方案。在该等式上的唯一性假设(可以在某些设置中除去),我们进一步表征了作为高斯分布的限制分布,其协方差矩阵是合适的Lyapunov方程的独特解决方案。对于超出这些情况的SA算法,我们的数值实验表明,与中央极限定理类型结果不同:(1)缩放因子不需要为$ 1 / \ sqrt {\ alpha} $,并且(2)限制分布不需要高斯。基于数值研究,我们提出了一种确定右缩放因子的公式,并与近似随机微分方程的欧拉 - 玛赖山离散化方案进行富有洞察力的连接。
translated by 谷歌翻译